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UITTREKSEL 

Om de performance van spraakherkenning onder mobiele 
omstandigheden te verbeteren. is het gebruikelijk dat men 
spraakmateriaal verzamelt teneinde nauwkeuriger modellen 
van de spraak te kunnen maken. Echter, met enige regelmaat 
wordt de error correctie veranderd door de fabrikant, 
waardoor de mismatch tussen training en realiteit toeneemt. 
Bovendien worden transmissief outen momenteel -opgevangen' 
door ze mee te nemen in het trainingsproces. hetgeen de 
kans vergroot op -garbage-in, garbage-out • . Teneinde deze 
nadelen te ondervangen wordt de informatie die dovmstream 
(1, 2) in de frames beschikbaar is over de f ramekwaliteit 
(BPI) en de aanwezigheid van spraak (SP) , gebruikt om de 
upstream spraakherkenner (20) dynamisch te besturen. Het 
resultaat is dat van niet -correct veronderstelde frames 
alleen het correcte deel gebruikt wordt. en frames waarin 
geen spraak verstuurd is, maar waarin sprake is van stilte, 
door de spraakherkeimr worden genegeerd. 



20 (FIG. 1) 



Spxaakvearwerkend systeem 
ACHTBRGROND VAN DE UITVINDING 

De uitvinding heeft betrekking op een spraakverwerkend 
5 systeem. omvattende spraakherkenningsmiddelen voor de 

verwerking van vanuit een bron aan een spraakingang van dat 
spraakverwerkende systeem toegevoerd signaal (DATA) . 
Bekend is dat de kwaliteit van spraakberkenning aan de 
ontvangstzijde van bijv. een GSM verbinding momenteel 
10 onvoldoende is. Als de herkenner zich in het netwerk 
bevindt, wordt het herkenreeultaat op het ontvangen en 
gedecodeerde GSM spraaksignaal mede beinvloed door de 
hoeveelheid artificieel gegenereerde ruis die op basis van 
aan zendzijde gedetecteerde stilte wordt toegevoegd en de 
15 ontvangen ruis en verstoringen die het gevolg zijn van 
gedecodeerde tranemissie fouten op het radiopad. Om de 
herkenning te verbeteren, is het gebruikelijk 
spraakmateriaal te verzamelen dat via GSM verzonden is 
geweest en dat materiaal te gebruiken om nieuwe 
20 spraakjnodellen te ontwikkelen, die getraind zijn op 

spraaksignalen die (artificieel gegenereerde) ruis en 
distorties door tranamissief outen bevatten, waardoor de 
mismatch tussen trainsituatie en de herkenrealiteit 
verkleind kan worden. 
25 Het bekende heeft de volgende nadelen: de performance van 
de spraakherkenner is door het trainen op de ontvangen en 
gedecodeerde spraaksignalen slechts beperkt te verbeteren 
omdat : 

1) het decoderen van bijv. gecodeerde GSM signalen niet 
30 gestandaardiseerd is (alleen het encoderen is 

gestandaardiseerd) , wat betekent dat er in de praktijk 
situaties ontstaan waarin de spraakherkenner getraind is op 
een andere GSM apraakdecoder dan aan de input van de 
herkenner wordt toegepast. Bijvoorbeeld de error- correctie 
35 die wordt toegepast in de decoder wordt regelmatig 
veranderd omdat de fabrikant een betere manier heeft 
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gevonden om transmissiefouten (waardoor beschadigde spraak 
ontstaat) zodanig te bewerken dat een groot deel van deze 
fouten verborgen wordt (en dus niet of nauwelijks merkbaar 
voor het menselijk gehoor) . Dit heef t tot gevolg dat er een 
mismatch ontstaat tuseen de trainingset waarop de 
spraakmodellen zijn gebaseerd en de werkelijke spraak. 

2) men door te trainen op spraak met transmissiefouten 
weliswaar de fouten reeds modelleert in de spraakmodellen 
(die daardoor complexer worden) , maar het is niet 
gegarandeerd dat de algehele kwaliteit van de herkenning 
toeneemt, want vaak geldt: garbage- in, garbage-out. 

3) niet vooraf bekend is of een signaal spraak of stilte 
(vanaf de zendzijde) bevat . Omdat aan de ontvangstzi jde 
artificieel gegeneerde ruie wordt toegevoegd (comfort 
noise) wanneer er stiltes geconstateerd zijn, daalt de 
performance van de spraakherkenning omdat de herkenner zal 
proberen de ruis te 'herkennen' . 

SAMENVATTING VAN DE UITVINDING 

De uitvinding beoogt de genoemde nadelen te ondervangen en 
20 de performance te verbeteren van automatische 

spraakherkensystemen die opereren aan de ontvangstzi jde van 
een spraakfr2Lme georifinteerde telefonische 
spraakverbinding. Dit kan zijn bijv. GSM, UMTS of voice 
Over IP- De kern van de uitvinding is dat aan 
25 ontvangstzi jde niet alleen een spraaksignaal aan het 
spraakherkensysteem wordt aangeboden, maar ook 
signaalparameters die informatie geven over 
karakteristieken van het ontvangen signaal. 
Bijvoorbeeld betreft het parameters die duiden op de aan- 
of afwezigheid van spraakenergie in het ontvangen signaal 
of op de betrouwbaarheid van het ontvangen signaal blijkens 
aan zendzijde toegevoegde redundancy checks (bijv. CRC's). 
Bij GSM worden dergelijke parameters op basis van frames 
berekend. De in het kader van de uitvinding van belang 
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zijnde parameters zijn daar ondermeer de BFI (Bad Frame 
indicator) , bijv. berekend uit de CRC waarden per frame, en 
de SID (Silence Descriptor) afgeleid van een parameter SP 
(Speech Flag) - Deze parameters worden in GSM tot dusverre 
alleen gebrui)ct voor detectie van fouten in de ontvangen 
spraaJcframes resp. voor zenderbesturing (alleen zenden bij 
de aanwezigheid van spraak) . 

Besturing van een epraakherkenner door klassif icerende 
parameters bevordert de accuraatheid van de herkenning 
doordat artificieel gegeneerde ruis genegeerd kan worden, 
en kapotte frames hetzij genegeerd worden, hetzij 
aangepast, bijvoorbeeld partieel. verwerkt worden. Behalve 
de bovengenoemde parameters, de BPI en SID, wordt ook 
gebruik gemaakt van een "coding mode" parameter die de 
16 betekenis van de spraakframe bits definieert (FR, EPR. of 
de verschillende modes waarin AMR kan werken) . Aan de hand 
hiervan wordt het in de epraakherkenner werkzame 
herkenalgoritme aangepast aan de karakteristieken waarmee 
het spraaksignaal is gecodeerd en gedecodeerd. 
20 FIGUURBESCHRIJVING 

De working van de uitvinding wordt aan de hand van enige 
figuren nader toegelicht. Als voorbeeld nemen we het 
huidige deel van het GSM systeem dat gebruik maakt van een 
Enhanced Pull Rate (EFR) codec. Hetzelfde geldt echter voor 
een Pull Rate (FR) codec, en voor de (toekomstige) Adaptive 
Multi Rate codec (AMR) . Piguur 1 toont twee terminals -een 
eerate, mobiele terminal zoals een GSM handset, en een 
tweede, vaste terminal zoals een GSM basisstation- die met 
elkaar kunnen communiceren via een draadloos medium 9 . In 
de figuur wordt alleen upstream communicatie -van handset 
naar basisstation- voorgesteld. 

De in het bovenste deel van figuur 1 getoonde handset omvat 
twee modules of subsystemen, te weten een TX/DTX Handler l 
(DTX staat voor Discontinous Transmission) en een TX Radio 
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Subsystem 2. Module 1 omvat een microfoon 3, een spraak- 
encoder 4 en een Voice Activity Detector (VAD) 5. Module 2 
omvat een kanaal -encoder 6, een Speech Flag monitor 7 en 
een zender 8. Door de microfoon 3 ontvangen signalen worden 

5 toegevoerd aan zowel de spraak- encoder 4 als naar de VAD 5. 
in de VAD 5 wordt gedetecteerd of de microfoon 3 spraak of 
stilte opvangt. Dit wordt gecodeerd met een "Speech Flag" 
(SP) , welke wordt meegestuurd in elk spraakframe. In de 
kanaal -encoder 6 wordt het in encoder 4 gecodeerde 

10 microfoon- signaal gecodeerd tot via zender 8 verzendbare 
frames. Aan de frames is wordt redundante informatie 
toegevoegd, zoals een checksum code (CRC) aan de hand 
waarvan aan ontvangzijde kan worden berekend of het frame 
correct is overgedragen . In bepaalde gevallen kan een 

15 niet- correct overgedragen frame met behulp van deze 
redundante informatie worden gecorrigeerd. 

Tijdens de opbouw van de verbinding wordt vastgeeteld welk 
codeeralgoritme gebruikt wordt, hetgeen gerepresenteerd kan 
worden als de parameter CM ("coding mode") - Bij bepaalde 

20 Bpraakcodecs (bijv. AMR) wordt de "coding mode" -parameter 
per frame meegestuurd en wordt de herkenner hiermee 
dynamisch aangestuurd. Bij andere spraakcodecs wordt de 
parameter eenmalig, aan het begin van een sessie, naar de 
ontvangzijde overgedragen. 

25 Aldus zendt zender 8 een freune- gecodeerd signaal uit dat 
data (het eigenlijke signaal) , de parameter SP. de 
parameter CM (bij bepaalde spraakcodecs) en redundante 
informatie, zoals de checksum CRC bevat . 

De ontvangende terminal, onderaan in figuur 1, omvat twee 
30 modules of subsystemen in een GSM basisstation, te weten 
een RX Radio System 11, de tegenhanger van module 2 van de 
handset, en een RX DTX Handler 12, de tegenhanger van 
module 1. Module 11 omvat een ontvanger 13, een 
kanaal -decoder ings- en f outcorrectiemodule 14 en een 
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parameterdetector 15; die laatste detecteert de 
aanwezigheid en de waarde van de met het datasignaal 
meegezonden parameter SP en. indien aanwezig, de parameter 
CM. Module 12 omvat een spraak- decoder 16 en een verdere 
5 verwerJcingsmodule 17 . 

De ingang van een spraakherkenmodule 20 is -overigens op 
zich conform de stand van de techniek- aangesloten op de 
uitgang van de kanaal -decoder 14. De spraakherkenner 2 0 
bewerkt dus het nog niet spraak- gedecodeerde datasignaal 
10 (spraak) . Conform de onderhavige uitvinding wordt de 
spraakherkenner 2 0 aangestuurd door &en of meer 
signaalpararoetere die via detector 15 worden ontvangen. De 
basis van de parameter SP wordt aan zendzijde, in de GSM 
handset, gevormd, los van de signaal-inhoud van het 
ontvangen datasignaal. In de f outcorrectiemodule 14 worden 
de ontvangen frames voorafgaand aan decodering op 
correctheid onderzocht aan de hand van de meegezonden 
redundance informatie. Niet-correcte frames worden als 
zodanig aangemerkt of zo mogelijk hersteld (in simpele 
gevallen) . Correcte frames worden doorgegeven naar de 
spraakdecoder 15. Wanneer een frame niet gecorrigeerd kan 
worden, geeft module 14 een BFI ("Bad Frame Indicator") 
parameter af aan detectormodule 15. Volgens de uitvinding 
wordt die BFI, behalve aan de spraak -de coder 16. eveneens 
doorgegeven aan de spraakherkenner 20. Op ontvangst van die 
BFI negeert de spraakherkenner 20 de aangeboden input, of 
probeert het deel van het frame dat nog wel als correct kan 
worden aangemerkt (hoewel de BFI gezet is) alsnog te 
herkennen. De waarde van de BFI parameter werkt met ander 
woorden als besturingsparameter voor de spraakherkenner, 
waardoor die alleen correcte frames in 66n keer bewerkt. 
Van als kapot aangemerkte frames wordt geprobeerd alleen 
dat deel te gebruiken dat nog correct is, en als geheel 
incorrect aangemerkte frames worden genegeerd. Dat bij een 
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gezette BFI vlag nog steeds sen deel van het frame correct 
kan zijn, Icomt doordat de bits in de spraakf rames in 
verschillende klaasen zijn opgedeeld (in GSM: lA, IB en 2) . 
Niet elke Jclasse wordt op dezelfde manier 'bescherrad- door 
toegevoegde redundante inforraatie. Bij bijv. GSM geldt dat 
indien klasse lA bits als 'beschadigd' worden gekenmerkt 
(op basis van de CRC) , de BFI vlag gezet wordt (somroige 
fabrikanten zetten deze vlag ook bij beschadigde IB bits) - 
Dit hoeft echter niet te betekenen dat alle overige bits 
ook beschadigd zijn. De herkenner neerat als input feature 
vectoren (Rabiner & Juang, 1993). Elk spraakframe wordt 
omgezet in een feature vector. De waarden van het deel van 
het spraakframe dat niet beschadigd is, kunnen nog steeds 
aangeboden worden aan de herkenner. Dit kan bijvoorbeeld 
gerealiseerd worden door de gecorrumpeerde features in de 
feature vectoren specifieke waarde te geven welke 

resulteert in een nihil effect op de score van het 
ontvangen signaal (de Veth, cranen & Boves, 1998), of door 
het complete frame te negeren (Lippman & Carlson, 1997) . Op 
20 ongeveer dezelfde wijze werkt de SID parameter op de 

werking van de spraakherkenner 20. De SID parameter wordt 
afgeleid van de waarde van de Speech Flag, zoals die wordt 
afgegeven door de Voice Activity Detector 5 en verzonden 
door zender 8. Bij spraak krijgt de SP een bepaalde waarde. 
25 en evenzo de SID; bij ontbreken van spraak (stilte) krijgen 
de SP en daardoor de SID parameter een andere waarde. Het 
resultaat is dat de spraakherkenner "enabled" is bij de 
overdracht van een werkelijk spraaksignaal en "disabled" 
bij de afwezigheid van spraak. Tenslotte is het, zoals 
30 hierboven werd aangegeven, mogelijk om de werking van 

spraakherkenner 20 in te stellen in af hankeli jkheid van het 
codeeralgoritme van de spraak- encoder 4 (bijv. FR, EFR, 
AMR, etc. ). In de figuur geschiedt dat door de middels 
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hand-shake (dus tijdens de verbindingsopbouw) vastgestelde . 
of door de per spraakframe meegestuurde parameter CM. 
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CONCLUSIES 

1, Spraakverwerkend systeem, omvattende spraakherkennings- 
middelen (20) voor de verwerking van een vanuit een bron 
(1, 2) aan een spraakingang toegevoerd signaal (DATA), 

6 GBKENMBRKT DOOR middelen voor het belnvloeden van de werking 
van de spraakherkenningemiddelen door of meer via een 

beeturingslngang toegevoerde besturingsparameters (CM, SID, 
BFI) , waarbij elke besturingsparameter betrekking heeft op 
een bepaalde karakteristiek van het vanuit de bron aan de 

10 spraakherkenningsmiddelen toegevoerde signaal (DATA) - 
2- Spraakverwerkend systeem volgens conclusie 1, mbt het 
KBNMBRK DAT een eerste besturingsparameter (BFI) betrekking 
heeft op de betrouwbaarheid of correctheid van het 
toegevoerde signaal en de werking van de spraakherkennings- 

15 middelen (20) aangepast wordt aan de door die eerste 
besturingsparameter aangegeven betrouwbaarheid 
respectievelijk correctheid van het toegevoerde signaal. 

3. Spraakverwerkend systeem volgens conclusie 1, met het 
KENMBRK DAT een tweede besturingsparameter (SID) betrekking 

20 heeft op de spraak/ruis- ratio en de werking van de 

spraakherkenningsmiddelen (20) aangepast wordt aan de door 
die tweede besturingsparameter aangegeven spraak/ruis- ratio 
van het toegevoerde signaal . 

4. Spraakverwerkend systeem volgens conclusie 1, waarbij 
25 het aan de spraakherkeiuxingsmiddelen (20) toegevoerde 

signaal in spraakcodeermiddelen (4) aan de bron gecodeerd 
is, MET HET KENMBRK DAT een derde besturingsparameter (CM) 
betrekking heeft op de modus van spraakcodering in de 
spraakcodeermiddelen, waarbij de werking van de 
30 spraakherkenningsmiddelen (20) aangepast wordt: aan de door 
die derde besturingsparameter aangegeven spraakcodering- 
modus • 

5. Telecommunicatiesysteem, omvattende een eerste terminal 
(1, 2) met spraak- en kanaal-encodeermiddelen (4, 6), een 
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transmiesiemedium (9) en een tweede terminal (il. 12) met 
icanaal- en epraakdecodeermiddelen (13, 16) en een spraak- 
verwerkend eysteem volgens conclusie 1, waarbij het 
genoemde signaal (DATA) vanuit de eerste terminal, via het 
transmissierredium aan de spraakingang van de spraak- 
herkenner van de tweede terminal wordt aangeboden, en 
waarbij elke besturingsparameter (CM, SID. BFI) vanuit de 
eerste terminal, via het transmissiemedium aan de daartoe 
bestemde besturingsingang van het spraakverwerkende syeteem 
van de tweede terminal wordt aangeboden. 
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